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基于 主题 图 的 数字 档案 标注 系统 资源 聚合 研究 “ 


EKER 330X 
上 海 大 学 图 书 情报 档案 系 “上海 200444 


摘要 : [ 目的/ 意义] 针对 社会 化 标注 系统 用 于 数字 档案 资源 组 织 后 带 来 的 资源 检索 与 导航 问题 ,提出 依托 
主题 图 的 数字 档案 资源 聚合 模型 ,以 期 提高 数字 档案 资源 检索 效率 并 建立 有 序 的 可 视 化 导航 。 [方法 /过程 ] 在 
剖析 利用 主题 图 实现 社会 化 标注 系统 资源 聚合 相关 研究 现状 的 基础 上 ,构建 数字 档案 领域 基于 主题 图 的 资源 
聚合 模型 ,给 出 利用 社会 网 络 分 析 和 形式 概念 分 析 析 取 数 字 档 案 资 源 主题 图 的 主题 类 型 关联 关系 及 资源 指引 


三 要 素 的 体系 化 解决 方案 ,从 而 实现 数字 档案 标注 系统 资源 聚合 。 


[ 结果 /结论 ] 以 NARA 数字 档案 标注 系统 中 


的 “Women at War” 话 题 为 例 , 利 用 所 提 方 法 并 结合 Ontopia 工具 实现 目标 话题 的 数字 档案 资源 聚合 ,有 效 提高 


系统 中 数字 档案 资源 的 检索 效率 和 导航 效果 。 
S 关键 词 : 社会 化 标注 系统 ”主题 图 
v 分 类 号 : G254.11 

S DOI: 10. 13266/j. issn. 0252 - 3116. 2018. 14.014 


资源 聚合 数字 档案 


~ 利用 社会 化 标注 系统 组 织 数 字 档 案 资源 是 近年 来 
档案 实践 领域 兴起 的 资源 组 织 新 方案 ,美国 NARA 


之 间 的 映射 关系 。 本 研究 旨 在 参考 国内 外 既 有 研究 
的 基础 上 , 重 构 社 会 化 标注 系统 三 元 组 向 主题 图 三 


(National Archives and Records Administration ) 国家 档 
案 刁 文件 署 的 公民 档案 标注 系统 即 是 此 类 实践 活动 中 
的 鹿 佳 示范 ,受到 了 档案 领域 学 者 及 档案 爱好 者 的 广 
泛 过 哑 。 采 用 社会 化 标注 的 方式 组 织 数 字 档 案 资源 优 
SET ,诸如 集体 智慧 ,更 新 及 时 .自由 灵活 ,用户 体 验 
感 强 等 ,但 标签 语义 规范 性 差 .标签 结构 扁平 化 等 国有 
缺 砂 导致 的 检索 与 导航 问题 也 接 旺 而 至 ,借助 其 他 知 
识 铺 织 方法 对 标签 语义 进行 优化 ,实现 基于 语义 的 数 
字 档 案 资源 聚合 成 为 学 者 们 破解 该 难题 的 共识 "。 如 
是 ,主题 图 即 是 该 难题 的 一 解 。 主 题 图 的 核心 三 要 素 
是 主题 (topie) .关联 (association) 和 资源 出 处 (oceur- 
rence) ,通过 精准 描述 主题 及 主题 之 间 主题 与 资源 
之 间 的 形式 化 语义 关系 ,可 形成 直观 的 可 视 化 导航 
图 ,其 规范 化 .形式 化 .准确 性 、 可 视 化 等 优点 与 标签 
形成 了 鲜明 的 互补 特色 ,可 以 推测 两 者 的 结合 是 解 
决 数字 档案 资源 社会 化 标注 系统 缺陷 行 之 有 效 的 方 
案 ,而 实质 上 已 有 诸多 学 者 照 此 思路 展开 了 一些 有 
特色 的 研究 2-9 ,尝试 从 不 同 角度 建立 标签 与 主题 图 


要 素 之 间 的 映射 方案 ,尝试 采用 社会 网 络 分 析 、 形 式 
概念 分 析 等 量化 工具 ,使 得 建立 映射 的 过 程 更 为 科 
学 .严谨 且 尽 量 弱 化 主观 性 ,以 期 建立 的 基于 主题 图 
的 数字 档案 资源 聚合 结果 能 描述 更 精准 的 语义 和 展 
示 更 精确 的 导航 。 


国内 外 少 有 利用 主题 图 解决 数字 档案 标注 系统 资 
源 聚 合 问题 的 研究 ,但 在 数字 图 书馆 资源 聚合 ,学术 博 
客 资源 聚合 等 相似 问题 上 却 形 成 了 一 批 可 以 借鉴 的 研 
究 成 果 , 这 些 文献 关注 的 核心 问题 有 如 下 两 点 :主题 
图 能 否 拨 开标 签 云 的 天 空 ” 这 是 一 个 源 自 TMRA2007 
会 议 的 一 个 形象 比喻 “” ,其 本 质 是 探讨 主题 图 和 社会 
化 标注 系统 结合 的 可 行 性 。 该 类 研究 多 从 社会 认 知 、 
技术 实现 等 角度 探讨 二 者 的 结合 问题 ,例如 D. Hen- 
del!“ 从 社会 和 认 知 角度 对 主题 图 在 社会 网 站 中 的 应 
用 进行 考察 ,肯定 了 主题 图 与 标签 结合 的 可 行 性 ; 陈 
婷 ” 则 从 知识 组 织 、 语 义 关联 和 技术 互补 等 角度 肯定 
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了 标签 与 主题 图 结合 的 可 行 性 。 国 内 外 学 者 均 普遍 认 
可 采用 二 者 结合 的 方式 优化 数字 资源 组 织 。@@ 主 题 图 
如 何 拨 开 标签 云 的 天 空 以 实现 资源 聚合 ?关于 如 何 利 
用 标签 主题 图 结合 实现 社会 化 标注 系统 资源 组 织 及 聚 
合 ,国内 外 学 者 采用 的 方法 及 应 用 的 领域 呈现 多 样 化 : 
K.Fujimural7 在 博客 导航 系统 中 采用 数据 挖掘 技术 ， 
用 主题 图 对 大 规模 的 标签 云 进行 整理 和 序 化 以 揭示 标 
签 关 系 ; 熊 回 香 ” 和 邓 敏 ”在 标签 分 类 的 基础 上 抽取 
主题 类 型 并 主观 赋予 主题 关联 以 实现 豆 办 电影 标注 系 
统 中 的 主题 图 构建 ; 夏 立 新 等 "在 知识 专家 学 术 社 区 
构建 领域 介绍 了 Fuzzy 标注 系统 中 利用 主题 图 实现 标 
签 互 联 的 方案 ;项 兴 彬 中 采用 与 已 有 文献 [8] 和 [9] 类 
同 的 方式 对 工程 建设 中 的 标签 资源 进行 了 主题 类 型 、 
关联 ,资源 指引 定义 ,建立 起 新 的 标签 主题 图 的 资源 组 
织 模型 。 
这 上 , 既 有 研究 提供 了 非常 有 价值 的 求解 框架 ,给 
时 了 利用 主题 图 实现 各 个 领域 信息 资源 聚合 的 一 般 性 
解 居 方案 。 但 既 有 研究 也 仍然 有 尚未 解决 好 的 问题 ， 
论 轨 包括 :主题 类 型 的 洲 选 多 采用 标签 分 类 基础 上 
做 罗 既 有 分 类 标准 自 定义 主题 类 型 ,由 此 方式 产生 的 
论题 类 型 语义 粒度 粗放 ;名 主题 关联 关系 的 确定 多 依 
束 淹 观 ,缺少 客观 的 分 析 过 程 及 参照 标准 ;@ 资 源 指引 
竹 入 被 忽视 ,资源 的 聚合 过 程 未 被 同 显 ;@ 主 题 类 型 和 
沪 题 的 定义 侧重 于 对 信息 资源 外 部 特征 的 描述 ,忽视 
xt 的 揭示 。 上 述 4 个 问题 正 是 本 研究 


D. 


2 基于 主题 图 的 社会 化 标注 系统 资源 


基于 主题 图 的 社会 化 标注 系统 资源 聚合 的 本 质 ， 
是 用 主题 图 形态 重新 组 织 原来 以 标签 形态 展示 的 社会 
化 标注 系统 资源 ,因此 问题 的 关键 可 抽象 为 建立 社会 
化 标注 系统 | 标签 集 ,资源 集 , 标 签 - 资源 关系 集 | E 
合 向 主题 图 | 主题 ,关系 ,资源 指引 | 之 间 的 映射 。 
内 外 同类 研究 建立 此 映射 的 一 般 思 路 是 将 标签 分 类 进 
而 映射 为 主题 类 型 及 主题 ,主观 性 分 类 产生 的 标签 间 
关系 映射 为 主题 关系 ,资源 的 URI 标识 映射 为 资源 指 
引 。 本 研究 在 文献 述评 中 也 提 及 了 目前 这 种 主流 映射 
方式 的 局 限 ,为 了 弥补 上 述 局 限 ,本 研究 拟定 了 新 的 映 
射 方案 :GD 采用 先 聚 类 再 分 类 的 处 理 方式 ,以 自 底 向 上 
的 聚 类 代替 主观 性 自 顶 向 下 的 分 类 ,完成 标签 向 主题 
类 型 及 主题 的 映射 ,使 得 主题 划分 更 科学 ,语义 粒度 更 
细致 。@ 采 用 以 概念 关系 分 析 的 客观 方式 提取 主题 间 
关系 ,以 代替 人 为 自 定 义 的 主题 关系 ,完成 标签 关系 向 
主题 关系 的 映射 ,使 得 类 属 、 相 关 等 关系 的 确立 更 客 
观 。@ 给 出 详尽 的 聚合 资源 指引 方案 ,完成 资源 集 向 
资源 指引 的 映射 ,使 得 资源 能 以 聚合 的 形式 展示 和 导 

为 更 清晰 地 说 明 该 方案 思路 和 任务 ,本 研究 构建 
了 基于 主题 图 的 社会 化 标注 系统 资源 聚合 模型 ,该 模 
型 主要 涵盖 数据 处 理 \ 数 据 分 析 、 结 果 展 示 3 个 模块 ， 
如 图 1 所 示 : 


= 
Dee TIERE. 
o & 数 主题 及 主题 类 型 分 析 结 利用 Ontology 创建 主题 图 
据 | 分 | Jal | 更 | Jê m 果 
处 || 群 除 正 并 > 分 关联 及 关联 类 型 分 析 [—» m 利用 Omnigator 浏览 主题 图 
理 析 I 示 
资源 指引 分 析 利用 Navigator 实现 主题 图 可 视 化 


图 1 基于 主题 图 的 社会 化 标注 系统 资源 聚合 模型 


2.1 数据 处 理 模块 

数据 处 理 模块 旨 在 将 社会 化 标注 系统 中 抽取 出 的 
| 资源 集 ,标签 集 ,标签 - 资源 关系 集 | 展开 预 处 理 ,为 
数据 分 析 模 块 莫 定 基础 ,数据 预 处 理 的 关键 环节 包括 
DEWR E EMA H: 中 分 群 :本 研究 侧重 从 资源 
内 容 特征 的 角度 建立 主题 图 ,因而 需 先 将 标签 按照 描 
述 资 源 外 部 特征 和 内 容 特 征 进行 区 分 ,描述 资源 内 容 
寺 征 的 标签 集 是 本 研究 着 重 关 注 处 理 的 数据 对 象 ;@) 
剔除 :将 无 标签 描述 的 资源 及 一 些 无 意义 或 无 效 的 标 
签 去 除 ;@) 更 正 : 错 拼 、 错 写 的 标签 修改 ;@ 合 并 :英文 


缩写 、 单 复数 .大 小 写 、 人 名 地 名 的 合并 。 
2.2 数据 分 析 模 块 

数据 分 析 模 块 旨 在 获取 的 精炼 数据 集 基 础 上 利用 特 
定 的 分 析 方 法 展开 主题 及 主题 类 型 分 析 关联 关系 分 析 和 
资源 指引 分 析 , 建 立 | 资源 集 ,标签 集 ,标签 - 资源 关系 集 | 
向 | 主题 类 型 集 ,主题 关系 集 , 资 源 指引 集 | 的 映射 关系 ， 
从 而 实现 基于 主题 图 的 社会 化 标注 系统 资源 聚合 。 
2.2.1 主题 及 主题 类 型 分 析 主题 是 主题 图 中 描述 
知识 的 基本 构成 单元 ,是 对 客观 事物 的 抽象 化 描述 。 
主题 可 以 划分 为 群 , 谓 之 主题 类 型 ,一 个 主题 可 以 归属 
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于 一 个 以 上 主题 类 型 。 主 题 类 型 不 仅 可 以 从 资源 外 部 
特征 中 提取 ,还 可 以 从 资源 内 容 特征 中 抽象 而 出 。 社 
会 化 标注 系统 中 的 标签 集 兼顾 对 资源 内 外 部 特征 的 措 
述 ,因而 ,从 中 遂 选 和 提取 主题 及 主题 类 型 是 依托 主题 
图 实现 社会 化 标注 系统 资源 聚合 的 不 二 选择 。 

本 研究 侧重 从 资源 内 容 特征 的 角度 建立 主题 图 ， 
故 重点 以 揭示 资源 内 容 特征 的 精炼 “标签 - 资源 " 数 
据 集 为 数据 源 ,采用 “ 先 聚 类 再 分 类 "的 处 理 思想 , 通 
过 构建 高 频 标签 共 现 矩 阵 ,进而 利用 社会 网 络 分 析 工 
具 判 定 标签 间 语 义 距离 之 远近 亲 牙 , 据 此 将 标签 集聚 
类 为 若干 标签 群 ,借以 发 现 主题 类 型 , 见 图 2。 本 研究 
中 高 频 标签 的 六 选 与 文献 计量 中 高 频 关键 词 渤 选 方案 
异曲同工 ,在 此 不 予 袭 述 。 另 外 ,为 保障 聚合 分 析 的 正 
确 性 ,本 人 研究 采用 两 种 聚合 工具 NetDraw 和 No- 
deXL 互 为 印证 。 综 上 ,所 遵 选 的 高 频 标签 可 视 为 主 
EENE ATEH AUSENTE S RD RE, 


2.2.20 关联 及 关联 类 型 的 分 析 关联 是 揭示 主题 之 
间 语 义 关 系 并 连接 相关 主题 形成 完整 的 语义 网 络 的 关 
键 要 素 ,其 设立 以 参考 专家 经 验 自 定义 语义 关联 为 多 
见 ,但 难 脱 主观 之 嫌 。 为 此 ,本 研究 采用 应 用 数学 中 的 
形式 概念 分 析 方 法 来 识别 判定 主题 间 语 义 关 系 ,使 得 
分 析 过 程 更 为 客观 。 形 式 概念 分 析 理 论 以 数学 化 的 形 
式 概念 为 基本 知识 单元 ,以 形式 背景 描述 概念 内 涵 外 
延 间 关联 ,以 概念 格 中 节点 的 泛 化 和 例 化 抽象 表示 概 
念 、 属 性 、 实 例 间 的 各 类 关系 ,进而 描述 精准 的 语义 关 
系 ,适合 解决 本 研究 中 的 主题 关系 求解 问题 。 

接 上 步 , 以 聚 类 后 选 定 的 一 个 主题 类 型 ( 即 聚 类 所 
得 的 某 个 标签 群 ) 及 其 所 仿 主 题 ( 即 标签 群 中 所 含 标 
签 ) 为 数据 源 ,将 该 主题 类 型 所 蕴含 数据 按照 “标签 - 
资源 "的 二 元 关系 装载 和 形式 背景 ,进而 转换 为 概念 格 
得 到 标签 间 的 层级 关系 ,其 本 质 是 利用 聚 类 算法 将 具 
有 相同 主题 的 资源 进行 聚集 ,使 得 主题 类 型 中 的 主题 
呈现 出 从 无 序 到 有 序 的 结构 。 假 定 图 3 中 所 示 的 形式 
彰 景 由 某 主 题 类 型 所 含 数据 装载 而 得 ,标签 i 为 形式 
概念 的 内 涵 ,资源 j 为 概念 的 外 延 , 以 ”x "PR S 
签 -资源 的 对 应 关系 ,可 将 其 转换 为 图 3 所 示 的 概念 
格 。 该 概念 格 中 ,节点 1 与 节点 2 为 概念 属 分 关系 ， 
可 以 此 为 依据 推理 主题 A 与 主题 D 为 属 分 关系 ;类 
似 地 ,节点 2 与 节点 3 的 交集 为 节点 4, 二 者 为 相关 
关系 ,可 据 此 主题 B 与 主题 D 为 相关 关系 。 因 而 ,以 
形式 概念 分 析 为 工具 ,可 从 资源 内 容 特征 的 角度 揭 
示 包 含 . 属 分 .相关 等 多 种 关联 类 型 ,此 即 是 关联 及 
关联 类 型 分 析 。 
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图 3 关联 关联 关系 分 析 和 资源 指引 分 析 


e 精炼 “标签 -资源 ” 集 
e ERLER 
= KEERN | 
zx 高 频 标签 集 ( 主题 ) 
co 数据 透视 表 
Q 进行 标签 处 理 | 
e 标签 矩阵 
Ne ww 
~ 印证 | 
© m 
E 得 到 主题 类 型 及 主题 
C 
o E2 主题 及 主题 类 型 发 现 
标签 A | 标签 B | 标签 C| 标签 D 
资源 1 | | | 
资源 2 P TX 
资源 3 | | | | 
1 XOXO 
ws XT [| TX 
资源 6 | p | 
2.2.3 资源 指引 分 析 ”资源 指引 是 指 确立 主题 及 主 


题 关联 之 后 ,在 相应 的 主题 下 链接 资源 实体 的 过 程 。 
资源 实体 是 独立 于 主题 图 外 的 描述 特定 主题 的 网 页 、 
图 片 .数据 .文本 ,视频 等 各 种 资源 ,可 为 社会 化 标注 系 
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统 中 的 固有 资源 , 亦 可 通过 拓展 链接 社会 化 标注 系统 
之 外 的 资源 ,其 一 般 采 用 HTML, URI, Number, Date- 
time „String Image 等 资源 指引 类 型 来 界定 主题 类 型 和 
资源 实体 的 关系 。 本 人 研究 着 重 关注 对 STS 资源 的 权重 
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指引 ,强调 通过 资源 指引 实现 基于 主题 图 的 资源 聚合 
与 导航 。 以 图 3 右 半 部 分 为 例 ,确立 主题 关系 后 ,不 难 
发 现 作为 外 延 的 资源 是 存在 层级 关系 的 ,依据 形式 概 
念 分 析 理论 ,可 将 其 解释 为 概念 外 延 的 逆向 继承 性 。 
在 资源 检索 时 ,这 种 道 向 继承 性 可 以 用 以 描述 所 获 次 
源 的 权重 , 供 排序 和 优先 推荐 之 用 。 例 如 ,未 建立 聚合 
式 资源 指引 前 ,检索 标签 D, 可 以 检 到 资源 3 VERA. 
资源 5 和 资源 6, 各 资源 权重 相同 ;采用 聚合 式 资源 指 
引 后 , 仍 可 检索 到 上 述 资源 集 , 但 资源 权重 有 别 ,资源 
3 和 资源 5 的 排序 和 推荐 应 优先 于 由 逆向 继承 产生 的 
资源 4 和 资源 6。 
2.3 ”结果 展示 模块 

结果 展示 模块 则 结合 特定 的 主题 图 构建 工具 ,将 
3 类 分 析 结 果 使 用 主题 图 表示 工具 描述 和 展示 给 用 
户 也 最 终 实现 基于 主题 图 的 社会 化 标注 系统 资源 到 
会 SJ 目 前 较为 主流 的 主题 图 构建 工具 有 TM4J tiny- 
ÍNP XTMAXMLDB 和 Ontopia。 在 此 模块 中 ,本 研究 选 
用 弱者 们 使 用 频率 相对 较 高 的 主题 图 工具 Ontopia 来 
“描述 "3 类 分 析 结 果 从 而 构建 主题 图 :对 主题 类 型 及 
其 及 合 主题 的 “描述 "可 用 Ontopia 中 的 Topic Types 模 
拨 洒 现 ;对 关联 及 关联 关系 的 “描述 "可 用 Ontopia 中 
的 -Rsociation Types 模块 创建 ,可 描述 的 关联 关系 涵盖 
他 舍 关 系 、 属 分 关系 、 相 关 关 系 等 ;对 资源 指引 的 “ 描 
BA 用 Ontopia 中 的 Occurrence Types 模块 创建 与 对 


应 主题 相关 的 资源 属性 .资源 类 型 和 资源 链接 ;基于 主 
题 图 的 资源 聚合 与 导航 结果 可 通过 Omnigator 的 主页 
面 来 展示 ,用 户 可 直接 浏览 主题 .关联 关系 、 资 源 指引 
及 其 指引 所 给 出 的 链接 ,并 通过 点 击 链接 ,到 达 相 应 的 
言 息 资 源 , 从 而 将 内 部 的 主题 .关联 等 和 信息 资源 联系 
起 来 。 基 于 主题 图 的 资源 聚合 与 导航 结果 亦 可 通过 
Navigator 来 实现 主题 图 可 视 化 ,将 主题 与 主题 之 间 的 
关系 形成 一 个 用 以 表达 语义 的 网 状 结构 。 通 过 对 主题 
所 表示 出 的 关联 进行 追踪 查询 ,可 以 了 解 更 多 相关 资 
源 ,提高 检索 系统 的 查 全 率 。 


3 例证 研究 :基于 主题 图 的 NARA 数字 

档案 资源 聚合 方案 
3.1 数据 获取 与 清洗 

本 研究 主要 以 NARA 数字 档案 馆 中 Citizen Archi- 
vist Dashboard 板块 的 tagging missions 英文 标签 资源 作 
为 数据 源 ,用 八 爪 鱼 采集 器 抓 取 其 中 一 个 tagging mis- 
sion" Women at War” 下 用 户 对 其 381 件 档 案 标 注 的 标 
Z ,截至 2017 年 9 月 26 日 共计 1 836 个 ,本 研究 将 获 
取 的 标签 导入 Excel 表格 中 使 用 筛选 .替换 , 查 错 ,排序 
等 功能 进行 分 群 、 剔 除 更正、 合并 等 人 工 清 洗 操作 , 清 
洗 规则 见 表 1 ,得 到 最 终 的 档案 记录 数 是 248 条 ,标签 
数 是 1 695 个 。 


表 1 数据 清洗 规则 示例 


清洗 顺序 及 依据 


操作 


em 2 管理 员 标签 无 实质 含义 标签 
- 3 错 拼 
4 缩写 . 单 复数 .大 小 写 
5 人 名 .地 名 合并 整理 
最 终结 果 记 录 数 ,标签 数 
标签 清洗 整理 后 ,借鉴 文献 计量 学 中 高 频 关 键 词 
选取 的 思路 提取 出 高 频 标签 见 表 2。 词 频 筛选 规则 
为 : 先 取 词 频 2 以 上 的 标签 共计 92 个 , 词 频 中 位 数 为 
4, 然 后 将 词 频 4 及 以 上 的 标签 作为 高 频 标签 。 
根据 表 3 给 出 的 高 频 标签 ,可 得 到 标签 53 个 ,总 
标签 词 频 数 为 702 ,然后 使 用 excel 里 的 数据 透视 表 ,得 
出 53 «53 的 共 现 矩阵 (限于 篇 幅 , 只 给 出 部 分 , 见 表 
3), 
标签 共 现 矩阵 中 ,每 个 数字 对 应 的 是 其 行 标签 与 
列 标签 的 共 现 次 数 ,数字 大 小 代表 两 个 标签 的 关联 关 
系 的 强 弱 。 共 现 标签 间 的 关联 关系 也 间接 体现 了 被 其 
标注 的 档案 资源 的 关联 关系 ,通过 对 标签 及 标签 间 关 


记录 数 :248 


Nationalarchives identifier 2 44266358 
amam-tsl 
Wolrd War H 
Women’s Army Corps = WAC Women = woman 
Women Marines „Marines 


标签 数 :1 695 


删除 44 266 358 这 条 档案 
删除 仅 有 amam-tsl 标签 的 档案 
修正 为 World War II 
合并 为 Women' s Army Corps 合并 为 women 


合并 为 Women Marines 


系 的 分 析 ,可 实现 基于 主题 图 的 NARA 数字 档案 资源 


聚合 。 
3.2. 数据 分 析 
3.2.1 主题 及 主题 类 型 分 析 本 步 又 旨 在 通过 聚 类 


分 析 判 定 标签 关系 的 强 弱 进 而 发 现 主题 类 型 及 其 所 包 
含 主题 ,为 确保 聚 类 结果 的 精准 性 ,本 研究 采用 Net- 
Draw 和 NodeXL 两 种 聚 类 工具 分 别 聚 类 相互 印 证 。 
(1) 将 前 文 所 得 53 * 53 的 共 现 矩阵 导入 NetDraw 
中 ,通过 ”分 析 (analysis) ” 荣 单 中 的 “中 心性 测量 (cen- 
trality measures) ”功能 ,使 用 “Degree( 描述 特定 节点 到 
其 他 节点 的 直接 联结 数目 ) ”作为 测量 要 素 , 对 所 选 高 
频 标签 在 网 络 中 的 中 心地 位 及 标签 间 的 语义 亲 玻 展开 
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序号 标签 词 频 序号 标签 词 频 
1 women 110 28 World War II Posters 7 
2 World War II 80 29 food 6 
3 World War I 67 30 United States Navy 6 
4 women war workers 45 31 Vassar College 6 
5 posters 25 32 women in war 6 
6 nurses 20 33 Women ’ s Bureau 6 
T united states army 17 34 ambulance drivers 5 
8 War posters 17 35 Food Administration 5 
9 Women's Army Corps 16 36 hats 5 
10 American red cross 14 37 Patriotism 5 
11 France 14 38 Women in World War II 5 
12 New York 14 39 women's history 5 
13 African Americans 13 40 american flag 4 
14 women' s army auxiliary corps 13 41 Bermondsey 4 
15 women workers 13 42 California 4 
16 farming 10 43 civil war 4 
17 gas mask 10 44 coast guard 4 
18 flag 9 45 food conservation 4 
19 Munitions 9 46 homefront 4 
20 British 9 47 Indiana 4 
21 factory 8 48 machine guns 4 
22 feminism 8 49 Marine Corps 4 
23 recruiting 8 50 Massachusetts 4 
24 red cross 8 51 national history day 4 
25 uniforms 8 52 spars 4 
26 suffragists 7 53 Washington D. C. 4 
27 welding 7 合计 一 702 


RI 标签 共 现 矩 阵 ( 部 分 ) 


African ambul- American 


Ameri- ance eg red od British vial Mi id factory farming nd flag food 
cans EN flag M dsey nia war guard ism 

African Americans 13 0 0 0 0 1 2 0 0 0 0 0 1 0 
ambulance drivers 0 5 0 0 0 0 0 0 0 0 0 0 0 0 
american flag 0 0 4 0 0 0 0 0 1 0 0 4 0 
American red cross 0 0 0 14 0 0 0 1 0 0 0 0 0 1 
Bermondsey 0 0 0 0 4 1 0 0 0 4 0 0 0 0 
British 1 0 0 0 1 9 0 0 0 0 0 0 0 0 
California 2 0 0 0 0 0 4 0 0 0 0 0 0 0 
civil war 0 0 0 1 0 0 0 4 0 0 0 0 0 0 
coast guard 0 0 1 0 0 0 0 0 4 0 0 0 0 0 
factory 0 0 0 0 4 0 0 0 0 8 0 0 0 0 
farming 0 0 0 0 0 0 0 0 0 0 10 $ 0 0 
feminism 0 0 1 0 0 0 0 0 0 0 8 1 0 
flag 1 0 4 0 0 0 0 0 0 0 0 1 9 0 
food 0 0 0 1 0 0 0 0 0 0 0 0 0 6 
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聚 类 分 析 , 可 直观 地 看 到 women , World War I, World 
War II posters4 个 大 节点 为 本 例 的 4 个 主题 类 型 ,与 各 
主题 类 型 有 关联 的 高 频 标签 为 其 所 含 主 题 , 见 图 4 左 
侧 。 

(2) 同 理 ,将 标签 共 现 矩阵 导入 到 NodeXL 中 , 运 
用 NodeXL 聚 类 功能 并 选择 相应 聚 类 算法 进行 聚 类 分 


3C» 关联 及 关联 类 型 分 析 ee 
题 类 型 及 主题 间 的 关联 关系 与 关联 类 型 。 
B odo E 
概 剂 分 析 理 论 , 将 其 所 含 主题 集 - 资源 集 填 充 到 二 元 
表 宣 ,以 主题 为 形式 概念 的 内 涵 ,以 档案 资源 为 概念 的 
JI VL Fede ERE - 资源 的 二 元 关系 ,构建 形式 背 
后 利用 概念 格 构造 工具 (conexp1.3) 将 上 述 形式 
育 晤 千 化 为 相应 的 概念 格 Hasse 图 ,对 主题 实现 层次 


1 Mhencan fag f 
= 
World Was il ÉL 
Ne 
War Poe den 3 army dn y ry Cord x 
i | 


Vr ,将 标签 集聚 类 为 标签 群 , 得 到 图 4 右 侧 所 示 的 4 个 
标签 共 现 关系 类 团 ,可 以 看 出 ,其 主题 类 型 亦 为 


women , World War I, World War II, posters, Z& E, Tf 
women , World War I, World War II, posters 这 
标签 作为 “Women at War ”这 
的 主题 类 型 。 


4 个 关键 
个 tagging mission 里 标签 


I 
| = 
&. | 
NA 
MM E ] 
diae Ra a TN 
AR Women's Amy Cops [^75 M 
"aes 
: = M unes amy T 
1 Y ~Y 1 
Vassar Co 55 jo pesa enemy acr y corp 
dduw War 


4 "Women at War” 聚 类 结果 对 比分 析 


化 的 聚 类 , 见 图 5。 对 该 Hasse 图 中 内 涵 和 外 延 进行 分 
析 ,总 结 归 纳 出 3 种 关系 : 属 分 关系 、 包 含 关 系 、 相 关 关 
系 。 举 例 来 说 ,顶层 的 posters 作为 主题 类 型 包含 了 所 
有 主题 ,这 就 是 包含 关系 ;主题 flag 和 主题 American 
flag 体现 了 形式 概念 的 上 下 位 继承 关系 , 则 主题 Ameri- 
can flag 是 主题 flag 的 子 主题 ,体现 主题 间 的 属 分 关 
系 ; 主 题 united states army 和 主题 women’ s army corps 


则 是 相关 关系 。 其 他 关联 关系 就 不 一 一 著述 了 。 


t» 
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图 $ 主题 类 型 posters 及 其 主题 的 Hasse 图 
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3.2.3. 资源 指引 分 析 本 阶段 将 在 上 一 步 的 基础 上 
进行 分 析 , 在 相应 的 主题 下 链接 资源 实体 。 仍 以 主题 
类 型 “posters” 中 的 主题 “flag” 和 主题 “american flag" 2g 
例 , 根 据 前 文 分 析 结 果 , E“ american flag” 的 链接 资 
源 应 为 515462 .514947 .513673 .533765 共 4 件 案卷 ,而 
主题 “flag” 的 链接 资源 应 为 31488352、26432783、 
6788430 , 533657 , 535600, 515462 , 514947 、513673、 
533765 共 9 件 案卷 ,结合 本 文 所 用 形式 概念 分 析 理 论 
可 知 ,其 中 后 4 件 案卷 可 视 为 从 主题 “american flag" 4b 
逆向 继承 得 来 。 采 用 这 种 聚合 式 资 源 指 引 方 式 后 , 知 
以 "flag” 为 检索 词 ,其 返回 9 项 结果 中 ,案卷 31488352 、 
26432783 .6788430 ,533657 ,535600 的 排序 应 优先 于 其 
他 4 件 案卷 。 
339- 基于 Ontopia 创建 关于 NARA 数字 档案 标注 系 
gem 

CN 本 阶段 利用 OKS 中 的 主题 图 编辑 器 ontopoly 、 浏 
"d 9 Omnigator 可视化 (Ontopia Navigator) 工具 进行 主 
题 欧 的 编辑 浏览 与 可 视 化 ,实现 数字 档案 标注 系统 的 
资源 聚合 。 
3/321 利用 Ontopoly 创建 主题 图 ”Ontopoly 分 为 本 体 
pU 编辑 器 和 实例 ( instances ) 编辑 器 两 部 分 ,本 
UEBER Ontopoly 界面 的 类 型 索引 页 和 类 型 配置 页 
xf Women at War" 的 主题 及 主题 类 型 .关联 及 关联 关 
系 钉 资源 指引 进行 本 体内 容 的 编辑 ,然后 用 实例 编辑 
赃 稳 各 主题 的 实例 进行 编辑 输入 ,从 而 实现 主题 图 的 
创建 ,其 结果 如 图 6 所 示 : 


ontopoly 


Topic Types 


Women s! 


ontopoly 
Description Admin Ontology Instances 


flag 


* 20802424 
e 20808534 
* 20808536 
* 20808552 
* 20808572 
* 20808844 
o 514947 
e 515462 
e 535415 


Description | Admin | Ontology | instances 


图 6 Ontolopy 创建 的 “Women at War” 主题 图 


(1) 使 用 topic types 模块 创建 主题 及 主题 类 型 ,将 
3.2 中 分 析出 来 的 内 容 特征 主题 类 型 “ women" " World 
War I" “World War I 工 “posters” 和 外 部 特征 主题 类 型 
如 年 份 . 国 家 /地 区 等 输入 到 该 模块 中 并 添加 其 相应 的 
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主题 ,在 其 主题 配置 和 主题 类 型 配置 页 面 设置 各 自 的 
属性 ;然后 再 使 用 实例 (instances ) 编辑 器 对 各 主题 的 
实例 进行 编辑 输入 ,如 为 主题 flag 添加 对 应 的 实例 有 
国家 档案 馆 标 识 号 为 20808534 、20808572 .20808844 , 
20808536 ,20802424 .20808552 等 案卷 。 

(2) fii FH Association Types 模块 创建 关联 及 关联 关 
系 。 可 描述 的 关联 关系 涵盖 包含 关系 、 属 分 关系 、 相 关 
关系 等 。 以 Posters 中 的 flag 为 例 , 这 个 概念 的 下 位 概 
念 有 american flag ,可 在 该 模块 中 对 其 进行 “ 属 分 关系 ” 
的 编辑 ,其 他 的 关系 也 可 参照 如 此 编辑 。 

(3 ) 使 用 Occurrence Types 模块 创建 与 对 应 主题 相 
关 的 资源 属性 和 资源 类 型 , 见 表 4。 例 如 ,可 在 主题 
flag 的 类 型 配置 页 面 添加 资源 属性 :人 简介、 资源 来 源 、 
类 型 名 称 、 代 表 及 含义 ,还 可 为 其 添加 资源 类 型 如 HT- 
ML Image 及 相关 的 资源 链接 。 

表 4 资源 指引 属性 及 其 类 型 


主题 类 型 资源 属性 资源 类 型 
Country 简介 、 资 源 来 源 HTML, URI String „Image 
Date 简介 ,资源 来 源 、 代 表 、 Number , Datetime 
简介 资源 来 源 、 类 型 名 HTML, URI, Number, Date- 
sters 
m KARREN time „String , Image 
简介 资源 来 源 、 类 型 名 HTML, URI, Number, Date- 
women 
RARR E time „String , Image 
World War I 简介 ,资源 来 源 、 类 型 名 HTML, URI, Number, Date- 
KARR 、 含 义 time „String Image 
Word War II 简介 资源 来 源 、 类 型 名 HTML, URI, Number, Date- 
称 、 代 表 、 含 义 time ,String , Image 


3.3.2 利用 Omnigator 浏览 主题 图 基于 主题 图 的 资 
源 聚 合 与 导航 结果 可 通过 Omnigator 的 主页 面 来 展示 ， 
Omnigator' 浏览 器 是 一 个 标准 的 Web 界面 ,用 户 可 直 
接 浏览 主题 .关联 关系 资源 指引 及 其 指引 所 给 出 的 链 
接 , 并 通过 点 击 链接 ,到 达 相 应 的 信息 资源 ,从 而 将 内 
部 的 主题 关联 等 和 信息 资源 联系 起 来 , 见 图 7。 该 浏 
览 界面 以 文本 的 方式 显示 了 “Women at War” 中 “post- 
ers" 关联 类 型 和 主题 实例 等 。 点 击 图 中 的 Subject 
Identifiers ,可 以 链接 到 该 posters "标签 所 对 应 的 网 页 。 
3.3.3 利用 Navigator 实现 主题 图 的 可 视 化 ”主题 图 
可 视 化 是 指 用 一 个 表达 语义 的 网 状 结构 来 描述 主题 与 
主题 间 关 联 关系 。 8 是 由 Ontopia Visual Navigator 可 
视 化 组 件 生 成 的 ,以 网 状 图 的 结构 展示 NARA 数字 档 
案 标 注资 源 间 固有 的 和 潜在 的 知识 结构 。 图 中 每 个 主 
题 上 都 有 相关 的 数字 ,反映 的 是 与 该 主题 所 关联 的 主 
题 ,例如 主题 fag 右上 方 的 2 表示 主题 fag 有 两 个 相 
关联 的 主题 , 即 主题 类 型 posters 和 主题 american flag， 
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nt 以 根据 需要 选择 主题 进一步 追踪 查询 ,能 提高 地 展示 整个 主题 及 主题 类 型 ,还 能 具体 到 关联 及 关联 
检索 过 程 中 的 查 准 率 和 查 全 率 。 主 题 图 不 仅 能 可 视 化 ”关系 ,甚至 是 每 个 关联 关系 所 链接 的 主题 。 
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Study on Resource Aggregation of Digital Archives Tagging System Based on Topic Maps 
Zhang Yunzhong Feng Shuangshuang 


School of Library, Information Science and Archive, Shanghai University, Shanghai 200444 

Abstract. [ Purpose/significance] Aiming at the problems of resource retrieval and navigation which are caused by 
social tagging system used for digital archive resource organization, a digital archive resource aggregation model based on 
topic maps is presented in order to improve the efficiency of digital archive resource retrieval and establish an orderly visu- 
al navigation. [ Method/process ] Based on the analysis of using topic maps to realize the research status of social tagging 
system resource aggregation, a resource aggregation model based on topic maps in the field of digital archives is construc- 
ted, and a systematic solution to the three key elements of digital archives resource; topic types, association types and oc- 
currence types is given, which uses social network analysis and formal concept analysis, so as to realize the resource ag- 
gregation of digital archives tagging system. [ Result/conclusion | Taking the topic of “ Women at War" in NARA digital 
archives tagging system as an example, we use the method proposed in this paper and combine Ontopia tools to achieve the 
aggregation of digital archives resources of target topic, which effectively improves the retrieval efficiency and navigation 
effect of digital archives resources. 
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